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摘要 : [目的 /意义 ] 用 户 评论 有 助 于 开发 者 实现 移动 应 用 创新 ， 通 过 对 移动 应 用 评论 挖 气相 


关 文 献 进行 归纳 总 结 ， 为 移动 应 用 开发 和 评论 挖掘 提供 借鉴 。 


[方法 /过 程 ] 利用 文本 分 析 方 法 ， 


将 移动 应 用 评论 挖掘 相关 研究 归纳 为 评论 分 类 、 评 论 聚 类 和 评论 特征 抽取 3 个 关键 主题 ， 并 基 
于 此 框架 阐述 该 领域 的 发 展 状况 。[ 结果 / 结论 ] 研究 得 出 : 评论 分 类 方法 已 开始 从 机 器 学 习 向 
深度 学 习 演 变 ; 评论 聚 类 主要 使 用 KK-Means 和 DBSCAN; 特征 抽取 仍 以 评论 的 显 式 特征 为 主 。 
未 来 ， 移 动 应 用 评论 挖掘 仍 有 3 个 问题 值得 探究 ， 分别 是 领域 依赖 性 、 多 源 信息 融合 以 及 评论 


价值 评估 。 


关键 词 : 移动 应 用 评论 挖 据 评论 分 类 评论 聚 类 特征 抽取 
SHAS: TP391.1 
引用 格式 : 张 季 , 康乐 乐 , 李 博 . 移动 应 用 评论 挖掘 研究 综述 [VOL]. 知识 管理 论坛 2021, 6(6): 339- 


350[ 引用 日 期 ]. http://www.kmf.ac.cn/p/266/. 


@5 言 

随 着 移动 互联 网 的 发 展 和 移动 设备 的 普 
及 ,移动 应 用 ( 简称 APP) 已 经 成 为 日 常生 活 
中 不 可 或 缺 的 一 部 分 。 目 苹果 公司 2008 年 7 月 
WEH App Store, KAF] 2008 年 10 月 份 推 
出 Android Market ( 2012 年 更 名 为 Google Play 
Store ) 之 后 ,移动 应 用 如 雨后春笋 般 涌 现 出 来 。 
经 过 10 多 年 的 发 展 ，Google Play Store 已 有 超 


过 345 H sk Hj, Apple App Store 也 有 近 220 
万 款 应 用 中 ,这些 应 用 从 社交 媒体 到 新 闻 资 讯 、 
从 商务 办 公 到 娱乐 消 遗 、 从 医疗 健康 到 学 习 教 
育 、 从 在 线 购 物 到 金融 理财 ， 涵 盖 了 人 们 生活 
中 的 众多 场景 .2020 年 , 受 新 冠 肺炎 疫情 的 影响 ， 
人 们 使 用 移动 设备 的 习惯 向 前 推进 了 2-3 年 ， 移 
动 应 用 下 载 量 达到 了 2 180 亿 次 ， 每 个 用 户 日 均 
使 用 移动 设备 的 时 长 超过 了 4 小 时 中。 

移动 应 用 的 巨大 需求 量 给 APP 开发 者 带 来 
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KM 
无 限 机 遇 的 同时 ， 也 给 开发 者 带 来 了 巨大 的 挑 
战 。 第 一 ， 移 动 应 用 商店 具有 明显 的 开放 性 特 
征 中。 在 商店 中 ， 关 于 某 一 应 用 的 功能 描述 、 
用 户 评 论 、 更 新 文档 等 都 是 公开 可 见 的 。 这 意 
味 着 应 用 一 旦 发 布 ， 就 面临 着 被 模仿 甚至 被 抄 
袭 的 风险 。 第 二 ,需求 分 析 具 有 典型 的 阶段 性 
特征 。 应 用 程序 都 是 针对 当时 的 需求 开发 的 ， 
但 在 与 移动 应 用 交互 的 过 程 中 ， 用 户 会 不 断 产 
生 新 的 需求 。 第 三 ， 市 场 竞争 异常 激烈 。 在 特 
定 的 细 分 市 场 上 ， 功 能 高 度 相似 的 应 用 少 则 数 
款 、 多 则 数 十 款 ， 用 户 可 以 轻易 地 从 一 款 APP 
转移 到 另 一 款 APP”, 

对 于 移动 应 用 而 言 ， 创 新 一 直 以 来 都 被 认 
为 是 获得 竞争 优势 的 关键 来 源 5 09。 根据 新 颖 程 
度 ， 创 新 可 分 为 突破 式 创 新 和 渐进 式 创新 中。 
突破 式 创新 是 设计 一 个 全 新 的 产品 或 提出 产品 
设计 的 新 方法 ， 是 从 0 到 1 的 过 程 ;渐进 式 创 
新 是 对 现 有 产品 进行 持续 不 断 的 迭代 优化 ， 是 
从 1 到 N 的 过 程 。 移 动 应 用 创新 更 多 的 是 从 1 
到 NN 的 过 程 ， 即 对 APP 进行 长 期 的 维护 和 改进 。 
不 同 于 实体 产品 的 创新 ， 移 动 应 用 创新 迭代 非 
常 快 ， 如 Google Play 中 的 应 用 平均 13 天 更 新 
一 次 名 。 要 在 如 此 频繁 更 新 的 情况 下 获得 不 错 
的 市 场 绩效 ， 开 发 者 需要 及 时 地 从 用 户 那里 收 
集 反 馈 。 用 户 创新 理论 最 先 由 希 普尔 发 现 并 提 
出 ， 该 理论 认为 在 某 些 行业 或 领域 往往 是 用 户 
而 不 是 生产 商 提 出 具有 创意 的 产品 或 服务 P 
所 以 ， 这些 生 产 商 要 从 传统 的 以 自己 为 中 心 的 
创新 转向 以 用 户 为 中 心 的 创新 ， 要 为 用 户 提 供 
平台 以 激发 他 们 的 创造 力 "1。 

移动 应 用 商店 的 出 现 不 仅 为 用 户 打 造 了 一 
个 绝 佳 的 反馈 平台 ， 而 且 为 开发 者 提供 一 个 汲 
取 知 识 的 创新 平台 。 应 用 商店 允许 用 户 以 数字 
ER ( 从 1 星 到 5 星 ) 和 开放 式 文本 的 形式 发 
表 评 论 趾 ， 其 中 文本 通常 由 标题 和 正文 组 成 。 
在 开发 应 用 新 版 本 时 ， 开 发 者 平均 会 使 用 50% 
的 信息 性 评论 所 。 所 谓 信息 性 评论 ， 是 对 提高 
APP 质量 或 用 户 体验 有 潜在 帮助 的 评论 。 然 而 ， 
对 开发 者 来 说 ， 从 评论 中 快速 得 选 出 信息 性 评 
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论 并 不 容易 ， 主 要 原因 有 : 中 评论 数量 大 ， 增 
长 速度 快 。 评 论 数量 随 着 时 间 的 推移 会 越 积 越 
多 ，Google Play Store 中 一 些 热门 应 用 每 天 会 收 
到 500 多 条 评论 中， 人 工 审阅 耗 时 耗 力 。@ 信 
息 性 评论 大 约 只 占 总 评论 数 的 三 分 之 一 四。 也 
就 是 说 ,评论 中 包含 大 量 的 虚假 评论 、 不 相关 
的 评论 以 及 非 评论 等 垃圾 评论 UU. OPES XO 
是 有 了 噪声 的 。 用 户 撰写 的 文本 常常 不 符合 语法 ， 
FERS Hix, MS. Rise, >a SLVR 
点 符号 中 。@ 不 同 于 其 他 评论 ( 如 新 闻 评 论 、 
图 书评 论 、 影 视 评 论 ) ， 移 动 应 用 评论 具有 强 
时 效 性 和 高 价值 性 ， 用 户 针 对 某 一 版 本 发 表 的 
功能 错误 、 程 序 骨 省 等 评论 ， 若 开发 者 及 时 响 
应 , 将 极 大 地 增强 用 户 的 身份 认同 和 使 用 体验 。 
因此 , 诸多 学 者 致力 于 探索 如 何 自 动 从 海量 的 、 
非 结 构 化 的 、 非 正式 的 评论 文本 中 挖掘 有 价值 
的 信息 ， 然 后 将 其 纳入 软件 开发 环节 ， 以 促进 
移动 应 用 的 迭代 创新 。 

学 界 围 绕 移 动 应 用 评论 挖掘 取得 了 众多 的 
WARR, 已 有 学 者 对 此 进行 了 系统 性 综述 。 
N. Genc-Nayebi 和 A. Abran!” 从 评论 挖 所 技术 、 
领域 依赖 、 评 论 有 用 性 、 垃 圾 评论 识别 和 软件 
特征 提取 5 个 方面 展开 叙述 ， 揭 示 了 评论 挖掘 
的 主要 研究 问题 。 但 是 ， 该 综述 的 分 类 体系 较 
为 分 散 ， 并 且 由 于 文献 量 不 足 难 以 对 评论 有 用 
性 和 垃圾 评论 识别 进行 全 面 客观 的 述评 。M. 
Tavakoli 等 ' 针对 评论 挖掘 技术 和 工具 进行 综 
述 ， 将 评论 挖掘 技术 分 为 有 监督 的 机 带 学 习 技 
术 、 自 然 语言 处 理 技术 和 特征 提取 技术 ， 并 罗 
列 了 当时 的 评论 挖掘 工具 。 然 而 ， 其 缺乏 对 评 
论 挖掘 技术 更 有 深度 和 广度 的 分 析 和 归纳 。 鉴 
于 评论 挖掘 在 移动 应 用 创新 领域 具有 重要 的 意 
义 ， 且 近 几 年 APP 评论 挖 气 方 法 已 经 有 了 新 的 
进展 ， 所 以 有 必要 重新 梳理 相关 文献 。 

本 文 主要 贡献 如 下 : 中 筛选 出 利用 用 户 评 
论 驱 动 APP 创新 的 相关 文献 ; @ 思 利用 文本 分 析 
方法 ， 将 相关 研究 归纳 为 评论 分 类 、 评 论 聚 类 
和 特征 抽取 三 大 类 ， 以 期 明确 该 领域 的 发 展现 
KK; @@ 从 领域 依赖 性 、 多 源 信息 融合 以 及 评论 
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价值 评 佑 3 个 方面 进行 展望 ， 为 未 来 的 研究 提 
供 参 考 。 


@ 数 据 来 源 和 研究 框架 


2.1 数据 来 源 
本 研究 英文 论文 选取 Web of Science 核心 数 
据 集 中 的 SCLE、SSCI、CPCI 作为 数据 来 源 。 
在 增加 每 个 术语 可 能 的 同义词 以 及 对 检索 结 
分 析 的 基础 上 ， 确 定 的 检索 式 为 (TS=( "user 
reviews$" or 
feedback” or 


(“mobile app$” or “mobile application$” or 


“consumer review$” or “user 


“user comment$” ) and TS= 


“app store$" or "app market$” )) or (TS = ( "app 
review$” or “application review$” )), if HZ 
AIJ English, yt ja] 2 EE Jy 2009-2020 年 ， 文 献 
类 型 选择 article, review 和 proceedings paper. 
然后 ， 筛 选 出 与 移动 应 用 创新 相关 的 评论 挖掘 
文 草 共 54 篇 文献 作为 研究 样本 。 中 文 论文 选择 
中 国 知 网 全 文 数 据 库 中 的 核心 期 刊 作为 数据 来 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 , 2021 (6) :339-350 
DOI: 10.13266/j.issn.2095-5472.2021.032 


源 , 检索 式 为 (su=( "用 户 评论 ”" +“ 用 户 反馈 ”+ 
用 户 评价 ”) and (“移动 应 用 ”+” 应 用 程序 ”+” 
应 用 商店 ” +” 应 用 市 场 ”+” app’ )) or (su=” app 
评论 +“ 应 用 评论 '), 时 间 跨 度 为 2009-2020 年 。 
同样 ， 筛 选 出 与 移动 应 用 创新 相关 的 评论 挖掘 
文章 ， 整 理 得 到 13 篇 文献 。 综 合 67 篇 中 英文 
文献 ， 对 用 户 评论 驱动 APP 创新 的 研究 进行 系 
统 总 结 。 
2.2 研究 框架 

能 够 表达 论文 核心 内 容 的 关键 词 或 主题 词 的 
词 频 分 布 可 用 来 研究 某 一 领域 的 发 展现 状 L, 
笔者 利用 CiteSpace VO" 从 54 篇 英文 文献 的 标 
题 、 摘 要 、 关 键 词 、 补 充 关 键 词 中 提取 名 词性 
短语 ， 一 共 抽 取 了 226 个 名 词性 短语 。 作 者 对 
统计 结果 作 进 一 步 处 理 : 中 删除 检索 词 以 及 
与 检索 词 表达 相同 含义 的 短语 (如 mobile app 
reviews ) ; @) 把 表达 相同 主题 的 短语 进行 归并 ; 
@ 保 留 频次 大 于 3 的 主题 ， 并 将 主题 按 频 次 由 
大 到 小 排列 ， 如 表 1 所 示 : 


表 1 高 频 主题 


归并 后 的 主题 ”频次 


原始 名 词性 短语 


信息 性 评论 


33 
Informative Reviews 
方法 
28 
Approaches 
APP EIA 
| j de 
App Innovation 
评论 挖掘 " 
App Review Mining 
FEF 
5 21 


App Developer 


valuable information(4), bug report(4), feature request(4), informative reviews(2), elicit- 
ing such critical information(2), app issues(2), user opinions(2), sudden change(2), users 
needs(2), effective review(1), extracting informative user reviews(1), acquiring knowl- 
edge(1), crucial information(1), potential problem(1), important information(1), bug 
reporting(1), different points(1), major concern(1) 

machine learning(4), topic modeling(4), automated approach(3), various approach(2), 
baseline approach(2), manual analysis(2), natural language processing(2), association 
rule(1), automated phrase-based approach(1), ac algorithm(1), adapting information 
retrieval technique(1), adaptive online biterm topic modeling(1), adaptive online biterm 
topic model(1), abnormal topic(1), automatic topic extraction(1), adaptive topic model(1) 


actionable software maintenance request(2), evolution work(2), app update(2), release 
planning(2), recommended software change(2), evolution tasks(2), future maintenance(2), 
software evolution(2), app development(2), app software maintenance optimization(1), 
app maintenance(1), app development information(1), changed requirement(1), accurate 
evolution plan(1), application evolution(1), app software improvement(1), actionable 
change tasks(1) 


app review mining(3), analyzing reviews(2), text analysis(2), review analysis(2), user 
review mining(2), mining user reviews(2), app review analysis(2), analysis of online 
reviews(1), data mining(1), exploiting user feedback(1), analyzing user reviews(1), ad- 
dressing user reviews(1), analyzing mobile app reviews(1), analyzing informative crowd 
reviews(1), effective user review analytics tool(1), automatic user review mining(1), 
analyzing feedback(1) 


app developer(13), competitive environment developer(2), application developer(2), orig- 
inal developer(2), individual app developer(1), app developers opportunities(1) 
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原始 名 词性 短语 
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评论 分 类 
Review Classifica- 


tion 


情感 分 析 
Sentiment Analysis 
评估 指标 
Evaluation Metrics 
Wit 
Review Clustering 
特征 抽取 


Feature Extraction 


eX 1H 


HERES tmb wn 


(3 ities 
3.1 评论 分 类 


classification(4),app review classification(3), automatic classification(2), text classifi- 
cation(2), categorize user reviews(1), app review classification problems(1), app user 
19 review classification(1), classifying app reviews(1), accurate review classification 
process(1), classifying user reviews(1), associative classification(1), defining suitable 
classification feature(1) 


analyzing sentiments(1) 


7 high accuracy(4), average precision(2), average recall(1) 


sentiment analysis(6), fine grained sentiment analysis(1), computing user sentiments(1), 


clustering similar user change request(1), cohesive subgroups(1), cohesive subsets(1), 


6 cluster phrases(1), clustering algorithm(1), clustering reviews(1) 
4 app feature extraction(1), fine-grained app feature(1), app feature(1), fine-grained fea- 
ture(1) 
移动 应 用 评论 挖掘 

APP 评 论 挖掘 相关 文献 i 

评论 分 类 Wit eae 特征 抽取 | | 

mud AM. ET 频率 | 

n | 

基于 句法 分 析 | 

| K-Means | | 

基于 深度 学 习 ETHES || 

| DBSCAN | spies || 


评论 分 类 的 目的 不 仅 是 要 识别 出 有 价值 的 
评论 ， 而 且 要 对 评论 类 型 进行 更 细致 的 划分 。 
通过 对 Apple 应 用 商店 中 528 条 评论 的 人 工分 


1 APP 评论 挖掘 技术 路 线 


析 ，D. Pagano 和 W. Maalej 将 其 分 为 17 个 类 


ay 


创新 相关 路， 如 错误 报告 、 功 能 i 
缺陷 等 。H. Khalid 更 加 关注 负面 评论 ， 从 20 个 
iOS 应 用 的 6 390 条 一 星 或 两 星 的 评论 中 人 工 


区 分 出 12 种 类 型 的 月 


其 中 大 约 一 半 的 类 别 被 认为 与 移动 应 用 


青 求 和 功能 


户 抱 忽 ， 其 中 功能 错误 、 
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附加 功能 请 求 和 程序 骨 溃 等 类 型 对 开发 者 优化 
APP 至 关 重 要 PO, Xt-PBLdg5e AREAS AY 
评论 分 类 能 够 从 评论 中 迅速 识别 出 对 开发 者 有 
用 的 评论 类 型 ， 克 服 了 人 工分 类 耗 时 长 、 主 观 
性 强 等 缺陷 。 
3.1.1 基于 机 需 学 习 的 评论 分 类 

移动 应 用 评论 分 类 的 关键 流程 如 图 2 所 示 。 
从 图 中 可 以 看 出 ， 机 器 学 习 需 要 人 为 构建 特征 ， 
有 意义 的 特征 会 显著 提高 分 类 算法 的 性 能 。 移 动 
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应 用 评论 的 特征 可 以 分 为 语言 特征 和 外 部 特征 
( 见 表 2) 。 外 部 特征 是 指 评论 文本 内 容 以 外 的 
属性 ， 而 语言 特征 主要 包括 n-grams、 词 性 、 情 
感 。 在 进行 评论 分 类 时 ， 主 要 利用 语言 特征 ， 辅 
以 评论 元 数据 。 和 常用 的 评论 分 类 算法 包括 朴素 贝 
叶 斯 (Naive Bayes, NB) , K- 近邻 ( K-Nearest 
Neighbor, KNN ) |. xd] & PL (Support Vector 
Machine, SVM) 、 决 策 Pf (Decision Tree, 
DT) | ŽE (Logistic Regression, LR ) o 


机 器 学 习 


数据 预 处 理 


特征 构建 > 
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NB/KNN/SVM/DT/LR 


原始 App = 
评论 


深度 学 习 


数据 标注 


| 
4a 
M 


模型 


CNN/RNN/Transformer 


2 移动 应 用 评论 分 类 的 流程 


表 2 机 器 学 习 方法 常用 的 特征 及 其 描述 


特征 类 型 特征 特征 描述 
外 部 特征 元 数据 评论 文本 内 容 以 外 的 属性 ， 如 星 级 评分 、 评 论 长 度 、 评 论 提 交 时 间 
i 假设 每 个 词 出 现 的 概率 仅 取决 于 该 词 之 前 的 n-1 个 词 ， 常 用 的 有 
Unigram, 、Bigrams 和 Trigrams 
语言 特征 词性 不 同类 别 的 评论 可 能 有 不 同 的 词性 分 布 ， 如 动词 时 态 分 布 差异 
情感 计算 评论 的 情感 得 分 ,通常 正面 得 分 为 +1~+5， 人 负面 得 分 为 -5~-1。 


与 单独 使 用 文本 分 析 、 自 然 语言 处 理 、 倩 
感 分 析 和 评论 元 数据 相 比 ， 结 合 它 们 会 取得 更 
好 的 结果 P^79. W. Maalej fI H. Nabil?” 进行 了 
一 系列 实验 来 比较 简单 字符 串 匹 配 、 词 袋 模型 、 
自然 语言 处 理 〈 去 除 停 用 词 和 词 形 还 原 ) 、 评 
论 元 数据 和 情感 分 析 技术 的 准确 率 。 研 究 发 现 ， 
仅 靠 元 数据 会 导致 分 类 准确 率 很 低 ， 当 与 自然 
语言 处 理 技术 相 结 合 时 ， 分 类 准确 率 在 70%- 
95% 之 间 ， 召 回 率 在 80%-90% 之 间 。 在 所 有 的 
实验 中 ， 多 个 二 类 分 类 器 比 多 类 分 类 器 更 准确 
地 预测 评论 类 型 。 次 年 ，W. Maalej 等 "进一步 
探索 ,将 元 数据 与 词 袋 模型 、 自 然 语言 处 理 (JG 
其 是 二 元 语法 和 词 形 还 原 ) 结合 时 ， 所 有 评论 
分 类 的 准确 率 可 达 88%-92%， 召 回 率 高 达 90- 


99% 0 

由 于 有 监督 的 方法 需要 人 工 标注 训练 数 
据 ， 这 个 过 程 会 花费 大 量 的 时 间 。 所 以 在 不 影 
啊 准 确 性 的 情况 下 ， 主 动 学 习 和 半 监 督学 习 也 
受到 相关 学 者 的 关注 。 虽 然 主动 学 习 和 半 监 督 
学 习 都 用 到 了 未 标注 的 数据 ， 但 二 者 的 学 习 方 
式 不 同 。 主 动 学 习 是 从 未 标注 的 数据 中 选择 最 
易 判 断 错误 的 样本 交 由 专家 标注 ， 从 而 最 小 化 
训练 评论 分 类 器 所 需 的 人 力 ， 与 随机 选择 的 训 
练 数据 集 相 比 ， 主 动 学 习 在 多 个 场景 下 显著 提 
高 了 预测 的 准确 率 中。 然而 ， 半 监督 学 习 是 选 
择 最 不 易 判 断 错 误 的 样本 加 入 已 标注 数据 。 胡 
FARE PUR APT LP PEGE HS LS Fa SCA 
的 特点 ， 采 用 半 监 督 自学 习 的 方式 ， 基 于 有 限 
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KS 
数量 和 类 型 的 评论 种 子 ， 通 过 循环 的 方式 自动 
挖掘 出 体现 使 用 反馈 的 APP 软件 用 户 评论 。 为 
了 有 效 控制 用 于 贬低 目标 应 用 或 操纵 应 用 排名 
的 虚假 评论 ，D. J. He 等 P? 提出 了 一 种 基于 PU 
学 习 (Positive-unlabeled learning ) 和 行为 密度 
(behavior density ) 的 方法 来 检测 虚假 评论 。 

还 有 学 者 采用 集成 学 习 方法 ， 以 期 通过 聚 
合 多 个 弱 监督 模型 得 到 一 个 强 监 督 模型 。 集 成 
学 习 算 法 主要 有 两 种 : Bagging 和 Boosting。 通 
过 将 朴素 贝 叶 斯 、 决 策 树 、 支 持 向 量 机 、 逻 辑 
回归 、 神 经 网 络 等 不 同 的 算法 以 不 同 的 集成 学 
习 算 法 集成 起 来 ， 大 多 数 情况 下 ， 集 成 学 习 的 
性 能 优 于 单个 模型 。 

上 述 研 究 依赖 于 评论 的 文本 属性 ， 这 通常 
会 产生 高 维 模 型 , 并 可 能 导致 过 拟 合 问题 。 因 此， 
N. Jha 和 A. Mahmoud"? 使 用 语义 框架 将 用 户 评 
论 分 类 为 用 户 需求 、 错 误 报 告 和 其 他 , 结果 表明 ， 
语义 框架 有 助 于 生成 更 低 维 、 更 准确 的 模型 。 
但 是 ， 在 评论 摘要 任务 中 ， 基 于 文本 生成 的 摘 
要 比 基 于 框架 生成 的 摘要 更 全 面 1。 

3.1.2 基于 深度 学 习 的 评论 分 类 

深度 学 习 相 较 于 机 需 学 习 没 有 显 式 的 特征 
构建 过 程 ， 目 前 已 经 被 广泛 应 用 于 自然 语言 处 
理 问 题 ， 并 在 文本 分 类 任务 中 取得 了 很 好 的 效 
JR. ESE UU 从 功能 性 需求 与 非 功能 性 需求 两 
个 维度 出 发 ， 对 用 户 评论 进行 软件 需求 挖掘 ， 
采用 TextCNN TextRNN 和 Transformer3 种 Y 
度 学 习 方 法 ， 实 验 结果 显著 优 于 传统 的 机 器 学 
习 方 法 。 同 样 ，A. Li 等 9 提出 一 种 基于 图 卷 积 
网 络 的 大 规模 反 垃 圾 评论 模型 ， 该 模型 集成 了 
同 构 图 和 异 构 图 来 描述 局 部 上 下 文 和 全 局 上 下 
文 ， 线 上 评估 和 线 下 性 能 都 验证 了 该 方法 优 于 
利用 评论 信息 、 用 户 特征 和 商品 特征 的 基线 模 
型 。 通 常 来 说 ， 深 度 学 习 在 大 量 训练 数据 的 情 
况 下 会 有 更 好 的 表现 ， 但 在 小 规模 的 训练 数据 
上 可 能 并 不 能 取得 预期 的 效果 。 例 如 ，C. Stanik 
等 OT 使 用 传统 的 机 器 学 习 方 法 就 获得 了 与 卷 积 
神经 网 络 相当 的 结果 。 当 然 ， 更 复杂 的 模型 也 
意味 着 更 高 的 时 间 成 本 。 
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最 后 ， 移 动 应 用 评论 分 类 往往 牵涉 训练 数 
据 类 别 分 布 不 平衡 的 问题 ， 这 会 造成 分 类 器 决 
策 边 界 偏 移 ， 从 而 在 实际 应 用 中 效果 不 佳 。 现 
有 文献 主要 采用 两 种 方式 : 四 用 代价 敏感 的 学 
习 方 法 来 缓解 不 平衡 数据 的 影响 PPT BAS 
同类 型 的 误 分 类 设置 不 同 的 代价 ; @@ 使 用 重 采 
样 技术 来 处 理 不 平衡 的 类 外， 即 对 数量 多 的 
类 进行 欠 采 样 ( 也 称 为 “下 采样 ”) 、 数 量 少 
的 类 进行 过 采样 ( 也 称 为 “上 采样 ” ) 。 
32 Wie 

评论 分 类 是 根据 预定 义 的 类 别 给 评论 分 
配 标 签 ， 而 评论 聚 类 是 将 相似 且 没 有 预先 划 
定 类 别 的 评论 聚 在 一 起 。 典 型 的 聚 类 算法 有 
K-Means fil DBSCAN, #42 K-Means 是 基于 形 
心 的 聚 类 ， 而 DBSCAN 是 基于 密度 的 聚 类 。 张 
莉 曼 等 中 在 Word2vec 词 向 量 模 型 的 基础 上 ， 
结合 Canopy fll K-Means 对 评论 聚 类 ， 即 通过 
Canopy 得 到 聚 类 复数 ， 再 运用 K-Means 492) 38 
类 结果 ， 该 方法 有 效 识别 并 聚合 了 用 户 需 求 。 
不 同 于 广泛 使 用 的 K-Means，DBSCAN 可 以 自 
动 确定 聚 类 簇 的 个 数 , 而 不 需要 预先 指定 。 因此 ， 
这 种 方法 也 受到 了 学 者 的 关注 。L. Villarroel 等 
H XX H] DBSCAN 算法 对 错误 报告 、 新 功能 建议 
两 种 类 型 的 评论 进行 聚 类 ， 并 分 别针 对 这 两 种 
类 型 的 聚 类 艇 执行 优先 级 排序 。 在 此 基础 上 ，S. 
Scalabrino 等 外 对 评论 进行 了 更 细 粒 度 的 分 类 ， 
增加 了 4 类 非 功能 性 需求 : 安全 问题 报告 、 性 
能 问题 报告 、 过 度 能 耗 报告 和 可 用 性 改进 请 求 。 
不 过 ，K-Means 和 DBSCAN 在 移动 应 用 评论 数 
据 集 上 的 优 劣 有 待 进一步 研究 。 
3.3 特征 抽取 

虽然 评论 分 类 或 评论 聚 类 可 以 从 大 量 的 评 
论文 本 中 挖掘 高 价值 的 评论 ， 但 后 续 仍 需 开 发 
者 人 工分 析 才 能 知道 用 户 喜 欢 或 讨厌 的 具体 是 
哪些 特征 。 为 了 解决 这 个 问题 ， 学 者 们 提出 了 
多 种 方法 以 高 效 地 抽取 APP 特征 ， 进 而 可 以 分 
析 用 户 对 这 些 APP 特征 的 情感 。 笔 者 结合 APP 
评论 中 特征 抽取 的 研究 现状 ， 参 照 B. Liu 对 属 
性 抽取 方法 的 分 类 外， 将 相关 文献 划分 为 4 类 : 
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基于 频率 、 基 于 句法 分 析 、 基 于 监督 学 习 和 基 
于 主题 模型 的 特征 抽取 。 
3.3.1 基于 频率 的 特征 抽取 

基于 频率 的 特征 抽取 通常 先 利 用 
ICTCLAS, jieba, Standford Parser 等 自然 语言 
处 理工 具 进行 词性 标注 ， 然 后 从 标注 好 的 语 料 
中 提取 出 名 词 、 动 词 等 ， 最 后 保留 大 于 设 定 效 
值 的 词 作为 候选 特征 U, P. M. Vu 等 外 从 原始 
评论 中 提取 所 有 的 名 词 和 动词 作为 关键 词 ， 根 
据 评 论 星 级 和 出 现 频率 对 关键 词 进行 排序 ， 以 
便 开 发 者 查找 与 所 需 关键 词 最 相关 的 评论 。 不 
过 ,单个 词语 只 能 浅显 、 零 散 地 表达 用 户 观点 ， 
而 短语 可 以 提供 更 完整 的 信息 。 于 是 ，P M. Vu 
等 V? 使 用 词性 组 合 来 提取 用 户 评论 中 的 短语 ， 
根据 短语 之 间 的 相似 性 度量 对 短语 进行 分 组 ， 
排序 并 监测 这 些 分 组 的 动态 变化 ， 从 而 帮助 开 
发 者 获取 主要 的 用 户 观点 。 

为 了 从 评论 中 挖掘 出 用 户 高 频 反 馈 的 特征 ， 
不 少 学 者 使 用 关联 分 析 。 这 一 方法 的 基本 假设 
是 : 用 户 在 评价 APP 特征 时 ， 用 词 是 比较 一 致 
的 外。 因此 ， 那 些 频繁 出 现 的 名 词 或 动词 很 可 
能 就 是 APP 特征 。 为 了 提高 特征 挖 气 的 效果 ， 
BREE 外 先 利 用 基于 句 式 匹配 和 情感 倾向 识 

出 特征 请 求 评论 ， 然 后 通过 Apriori 关联 规则 

挖掘 算法 提取 软件 特征 。 与 之 不 同 ， 文 涛 等 外 
利用 Apriori 算法 提取 特征 后 ， 针 对 每 一 条 评论 
语句 需要 进一步 识别 出 其 中 包含 的 < 特征 词 , 观 
点 词 > 对。 鉴于 传统 的 频繁 项 集 挖掘 算法 (如 
Apriori ) 计算 量 大 且 难 以 扩展 ，C. Gao 等 PP R 
用 Eclat 算法 快速 获得 所 有 频率 大 于 支持 度 闷 值 
的 候选 短语 。 
3.3.2 基于 句法 分 析 的 特征 抽取 

观点 词 和 观点 评价 对 象 之 间 的 评价 或 修饰 
关系 往往 能 够 通过 句法 关系 来 表征 ， 而 句法 分 
析 可 以 识别 这 些 关 系 外, 从 而 实现 特征 的 抽取 。 
句法 分 析 从 语法 的 角度 分 析 词语 之 间 的 关系 ， 
包括 句法 结构 分 析 和 依存 关系 分 析 。Z. Peng 5j P! 
使 用 Stanford Parser 从 评论 的 依存 关系 分 析 中 提 
取 动 名 词 短 语 (动词 一 名 词 ) 和 名 词 短语 ( 名 
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词 一 名 词 或 形容 词 一 名 词 ) ， 然 后 基于 短语 与 
主题 之 间 的 相关 性 , 确定 作为 功能 请 求 的 短语 。 
考虑 到 APP 评论 描述 的 内 容 总 是 与 场景 相关 , D. 
Sun 等 中 利用 评论 的 短语 结构 树 和 依存 关系 提 
取 核 心 关 注 (kernel concern) ， 并 为 每 个 核心 
关注 构建 聚合 场景 模型 ， 帮 助 需 求 分 析 人 员 更 
完整 、 更 准确 地 理解 用 户 的 真实 意图 。 
3.3.3 基于 监督 学 习 的 特征 抽取 

特征 抽取 任务 可 以 转化 为 序列 标注 任务 ， 
当前 主要 的 序列 标注 算法 有 隐 马 尔 可 夫 模 型 

( Hidden Markov Model, HMM ) 和 条 件 随 机 
Y ( Conditional random field, CRF) 。CRF 对 
HMM 进行 了 改进 ,打破 了 HMM 与 实际 问题 不 
符 的 两 个 基本 假设 一 一 齐 次 马尔 可 夫 性 假设 和 
观测 独立 性 假设 。 因 此 ，CRF 在 特征 抽取 任务 
中 的 表现 更 为 出 色 ， 也 更 为 常用 后 。 内 建 蕉 等 
D^ 提出 基于 本 体 和 CRE 融合 的 特征 提取 方法 ， 
并 将 深度 学 习 Recursive Autoencoder 应 用 于 情感 
分 析 ， 最 后 形成 < 特征， 话题， 情感 词 ， 句 子 ， 
极 性 > 的 五 元 组 , 结果 表明 RERM ( Requirement 
Elicitation method based on Review Mining) 对 
潜在 软件 需求 类 型 分 类 的 效果 良好 ， 比 ASUM 
( Aspect and Sentiment Unification Model ) 5 pë 

供 了 更 多 有 价值 的 信息 。 
3.3.4 基于 主题 模型 的 特征 抽取 

主题 模型 是 一 种 生成 概率 模型 ， 其 目标 
是 从 文档 集合 中 挖掘 出 其 潜藏 的 主题 中 。 当 
前 APP 评论 挖掘 中 应 用 最 广泛 的 主题 模型 是 
由 D. M. Blei 提出 的 潜在 犹 利克 雷 分 配 ( Latent 
Dirichlet Allocation, LDA) 。LDA 主 题 模型 
利用 不 同文 档 中 观测 到 的 词 来 推断 文档 的 主题 
分 布 及 主题 中 词 的 分 布 中。 王 欣 研 等 中 通过 
LDA 获取 用 户 评 论 主题 词 并 运用 Glove 词 向 量 
相似 性 得 到 主题 语义 关联 ， 然 后 构建 出 语义 关 
联 主题 图 谱 ， 从 而 为 开发 者 高 效 获取 用 户 需 求 
提供 了 新 的 思路 和 方法 。 近 年 来 ， 学 者 们 也 提 
出 了 许多 LDA 的 变 体 模型 用 于 评论 挖掘， 如 动 
ALDA, HEMER LDA, E-LDA®! 等 。 

除了 普遍 使 用 的 LDA 及 其 变 体 模型 外 ， 
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KM 
ASUM'?,, JEHA Be a) fife 等 主题 模型 也 会 被 
采用 。 另 外 ， 还 有 部 分 学 者 对 比 了 不 同 主题 模 
型 的 效果 。E. Suprayogi 等 © 比较 了 LDA 和 非 
FEE OA, M ERE TEPER A, SE REE 
解 的 表现 更 好 。C. Gao 等 59 pete FRET LR 


引 、LDA、 随 机 投影 、 非 负 和 矩阵 分 解 和 基于 吉 
布 斯 抽样 的 LDA 模型 ， 最 终 基 于 吉 布 斯 抽样 


的 LDA 模型 取得 了 与 AR-Miner (App Review 
Miner ) 5 相当 的 命中 率 ， 并 实现 了 动态 跟踪 排 
名 靠 前 的 评论 所 反映 的 主要 主题 。 

现 有 的 主题 模型 大 多 基于 LDA 和 概率 潜在 
语义 分 析 ， 但 是 这 些 主题 模型 对 短文 本 的 表现 
不 佳 ， 因 为 短文 本 会 造成 数据 稀疏 、 难 以 识别 
歧义 词 含义 等 问题 中。 为 此 ，M. A. Hadi 和 下 . 
H. Frad? 提出 了 自 适 应 在 线 Biterm 主题 模型 ， 
有 效 缓解 了 词语 共 现 模式 稀 玻 的 问题 ， 可 以 从 
APP 评论 中 抽取 出 更 连贯 、 更 高 区 分 度 的 主题 。 


人 @ 总 结 与 展望 


移动 应 用 商店 汇集 了 大 量 用 户 对 APP 的 使 
用 体验 和 建议 ， 而 这 些 反馈 是 开发 者 取得 竞争 
优势 的 重要 抓 手 ， 因 为 用 户 评论 中 包含 功能 
陷 、 功 能 请 求 等 有 利于 开发 者 优化 APP、 提 升 
用 户 体验 的 信息 。 笔 者 从 评论 分 类 、 评 论 挖掘 、 
特征 抽取 3 个 方面 对 相关 的 文献 进行 系统 性 梳 
理 。 首 先 ， 基 于 监督 学 习 的 评论 分 类 仍 是 主流 ， 
但 评论 分 类 方法 已 经 开始 从 机 器 学 习 向 深度 学 
习 演 变 ， 深度 学 习 方法 在 评论 分 类 任务 中 的 效 
果 往 往 优 于 机 器 学 习 方 法 。 其 次 ， 评 论 聚 类 通 
笛 作 为 评论 分 类 的 后 续 步 又 ， 因 为 特定 类 别 中 
的 评论 数量 可 能 有 数 百 条 ， 通 过 聚 类 可 以 进 一 
步 降低 开发 者 获取 信息 所 付出 的 时 间 和 精力 。 
聚 类 算法 有 很 多 ， 但 现 有 研究 还 没有 比较 不 同 
聚 类 算法 或 算法 的 不 同 设置 在 移动 应 用 评论 数 
据 集 上 的 性 能 优 劣 。 最 后 ， 有 关 特 征 抽取 的 文 
献 主要 集中 在 移动 应 用 评论 显 式 特征 的 挖掘 ， 
主题 模型 能 够 在 一 定 程度 上 解决 隐 式 特征 抽取 
问题 ， 但 还 需要 专门 针对 APP 评论 隐 式 特征 抽 
取 进 行 研究 。 


ChinaXiv 合 作 期 刊 


未 来 ， 移 动 应 用 评论 挖 据 还 需要 深入 研究 
的 问题 主要 有 : 

(1) 领域 依赖 性 。 在 不 同类 别 的 应 用 
中 ， 词 语 会 呈现 出 不 同 的 含义 ,语言 模式 也 有 
所 不 同 ， 这 使 得 大 多 数 研 究 仅 适 用 于 特定 的 实 
验 环境 。 例 如 ，T. Johann 等 "7 提出 的 特征 提 
Hx J 法 SAFE (a Simple Approach for Feature 
Extraction) ， 通 过 人 工分 析 应 用 页 面 和 评论 ， 
确定 了 18 个 词性 模式 和 5 种 句子 模式 ， 并 用 
这 些 模式 来 提取 应 用 页 面 和 评论 的 特征 。 该 方 
法 对 于 页 面 维护 良好 的 Google Drive， 精 度 为 
87%; 对 于 评估 的 10 个 应 用 程序 ， 平 均 精 度 为 
56%。 然 而 ,F. A. Shah  '* 4 SAFE 用 于 8 个 
不 同 的 数据 集 (6 个 APP 评论 数据 集 、1 个 笔记 
本 电脑 评论 数据 集 和 1 个 餐厅 评论 数据 集 ) 获 
得 的 平均 精度 远 低 于 论文 中 报告 的 性 能 。 因 而 ， 
APP 评论 挖掘 中 如 何 实 现 领域 迁移 是 一 个 具有 
挑战 的 研究 方向 。 

(2) 多 源 信息 融合 。 一 方面 ， 不 同 应 用 商 
店 的 管理 策略 和 用 户 群 体 存在 显著 的 差异 ， 使 
得 即使 是 同一 APP 在 不 同 应 用 商店 中 的 用 户 反 
RESEMER O; 另 一 方面 ， 开 发 者 不 仅 需 
要 了 解 自身 应 用 的 优点 和 缺点 ， 还 要 时 刻 关 注 
竞争 应 用 的 长 处 和 不 足 。 因 此 ， 需 要 整合 不 同 
应 用 商店 的 用 户 反 馈 以 及 竞争 应 用 的 评论 、 产 
品 描述 和 更 新 文档 。 除 了 从 应 用 商店 挖掘 信息 
外 ， 还 可 以 收集 APP 运行 时 的 数据 。 将 应 用 商 
店 数据 和 APP 运行 数据 融合 在 一 起 ， 可 以 更 全 
面 地 反映 移动 应 用 的 状态 ， 更 准确 地 把 握 用 户 
的 需求 。 

(3) 评论 价值 评估 。 移 动 应 用 评论 的 质量 
参差 不 齐 ， 有 用 评论 少 、 低 价值 评论 多 。 因 此 ， 
高 效 的 评论 价值 评估 对 于 APP 开发 具有 积极 的 
现实 意义 。 当 前 大 多 数 研究 尚未 考虑 到 ，APP 
评论 价值 的 评估 不 仅仅 是 一 个 技术 性 问题 ， 更 
是 一 个 理论 性 问题 。 需 要 构建 合适 的 价值 评估 
体系 ， 从 多 个 角度 对 移动 应 用 评论 进行 分 析 。 
具体 而 言 ， 可 以 从 评论 的 信息 价值 、 时 间 价 值 、 
创新 价值 等 多 个 维度 ， 对 移动 应 用 评论 进行 恰 
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当 的 评估 ， 以 最 大 限度 地 挖掘 评论 的 价值 ， 更 
好 地 推动 APP 评论 挖掘 的 演化 。 
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A Research Review of Mobile Application Review Mining 
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Abstract: [Purpose/significance] User reviews are helpful for developers to realize mobile application 
innovation. This paper summarizes the literature related to mobile application review mining and provides 
references for mobile application development and review mining. [Method/process] This study reviewed 
the researches related to mobile application review mining into three key themes of review classification, 
review clustering and review feature extraction by using the text analysis method, and expounded on the 
development status of this field according to this framework. [Result/conclusion] At present, the methods of 
review classification have begun to evolve from machine learning to deep learning; review clustering mainly 
uses K-Means and DBSCAN; feature extraction is still focused on the explicit features of APP reviews. In the 
future, there are still three issues worth exploring in mobile application review mining: domain dependence, 
multi-source information fusion and review value evaluation. 
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